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摘 要 : [目的 /意义 ] 针对 《 左 传 》 中 的 战争 事件 展开 研究 ,对 先秦 历史 乃至 中 华 民族 文化 的 研究 具有 重要 参考 价值 。[ 方 
法 /过 程 ] 基于 框架 理论 构建 《 左 传 》 战 争 事件 基本 框架 体系 ,利用 模式 匹配 法 进行 战争 名 识别 ,选择 条 件 随机 场 
模型 、 结 合 特征 模板 对 战争 时 间 、 交 战 双 方 等 7 个 命名 实体 进行 识别 和 抽取 ,最 后 基于 得 到 的 结构 化 数据 对 战争 


事件 进行 分 析 和 可 视 化 展示 。[ 


结果 /结论 ] 研究 结果 表明 ,条 件 随机 场 模型 能 够 较 好 地 应 用 于 《 左 传 》) 战 争 事件 


的 抽取 ;特征 选取 会 影响 实体 识别 的 结果 ;具体 内 容 方面 ,春秋 时 期 普 国 、 楚 国 、 齐 国 、 郑 国 等 国 参战 频率 较 高 , 首 


国 为 主要 进攻 方 , 郑 国 为 主要 防守 方 。 
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典籍 , 专 指 价值 特别 重大 的 古代 汉语 文本 " ,是 伟 
也 时 华文 化 的 重要 载体 ,是 中 华 民族 五 千年 文明 的 象 
征 呈 数字 化 时 代 , 大 量 典 籍 实现 数字 化 并 在 网 上 公开 ， 
其 席 包括 古籍 保 护 数字 化 ( 原 物 扫描 \ 原 样 复制 ) 和 证 
籍 整理 数字 化 两 种 形式 号, 其 中 古籍 保护 数字 化 是 最 
沪 妥 的 形式 ,此 种 形式 是 数字 人 文 的 基础 工作 ,仅仅 是 
将 错 籍 以 数字 化 的 形式 进行 存储 ,并 不 利于 古籍 资料 
的 检索 与 获取 和 古籍 信息 加 工 处 理 与 深入 研究 。 同 
时 6 已 有 研究 的 研究 对 象 主要 为 现代 汉语 , 古 汉语 的 研 
究 比例 较 小 , 且 由 于 现代 汉语 和 十 汉语 在 词汇 、 句 法 、 
语法 和 机 构 等 语言 要 素 上 存在 明显 不 同 ,势必 要 对 古 
汉语 展开 针对 性 的 研究 。 科 学 研究 第 四 范式 的 出 现 也 
为 数字 人 文 研究 提出 了 新 的 思考 :能 否 利用 实体 知识 
挖 气 研 究 等 新 技术 对 典籍 中 的 自然 语言 进行 有 效 地 组 
织 ,从 而 为 历史 研究 提供 全 面 准确 的 典籍 信息 。 
结合 已 有 研究 和 相关 文献 ,笔者 发 现 对 古代 典籍 
研究 具有 如 下 特点 :四 研究 内 容 方面 , 古 汉语 和 历史 学 
领域 已 有 大 量 研究 致力 于 发 现 典籍 中 实体 的 使 用 规律 
和 构造 规则 ,这 些 实体 涵盖 古代 政治 经济. 社会 .军事 
等 各 个 方面 ,如 黄 水 清 等 基于 文本 挖掘 中 的 条 件 随机 


场 模型 ( Conditional Random Field,CRF ) ,对 《 左 传 》 和 
《国语 》 中 的 古 汉语 地 名 进行 自动 识别 ” 。@@ 研 究 方 
法 方面 ,由 人 工 方式 逐渐 过 渡 到 利用 计算 机 对 典籍 中 
的 自然 语言 进行 处 理 , 将 纸 质 资源 转化 为 数字 资源 ,并 
构建 大 型 语料库 供 研 究 使 用 ,如 C. L，Liu 等 以 语言 模 
型 和 条 件 随机 场 模型 为 技术 基础 ,挖掘 220 余部 中 国 
地 方志 中 的 传记 信息 ; 钱 智勇 等 利用 隐 马 尔 可 夫 模 
型 对 楚 辞 进行 自动 分 词 标注 实验 ”。 

《 左 传 ) 作 为 中 国 第 一 部 叙事 型 编 年 体 史书 , 兼 具 
极 强 的 史学 成 就 和 文学 价值 。 同 时 ,战争 是 一 定 历史 
阶段 国家 内 外 部 矛盾 激化 的 典型 表现 "9 ,是 当时 政治 、 
经 济 文化 等 要 素 的 集中 体现 。 因 此 ,本 文 以 ( 左 传 》 
战争 事件 抽取 为 研究 主题 和 目标 ,具体 包括 基于 框架 
理论 的 战争 事件 知识 表示 、 基 于 规则 方法 的 事件 句 抽 
取 实体 标注 研究 .基于 序列 化 标注 方法 的 实体 自动 识 
别 和 战争 事件 可 视 化 演示 5 个 方面 。 


2 研究 综述 


2.1 事件 抽取 研究 概况 

事件 抽取 ,是 信息 抽取 的 重要 组 成 ,以 计算 机 技术 
为 基础 ,提取 自然 语言 文本 中 与 某 些 特殊 事件 .事件 元 
素 或 关系 相关 的 参数 ,包括 命名 实体 识别 和 关系 抽取 
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两 大 类 别 ”。 目 前 ,事件 抽取 主要 使 用 模式 匹配 机 器 
学 习 等 方法 ,其 中 ,模式 匹配 法 是 指 基 于 模式 ,合理 地 
识别 .抽取 某 类 事件 ,按照 相应 的 算法 匹配 句子 和 模 
板 ,具有 较 高 的 准确 率 和 领域 专业 性 ,如 M. Surdeanu 


向 古文 的 命名 实体 识别 。 

分 词 是 利用 技术 手段 进行 古文 信息 处 理 的 基础 和 
关键 ,文本 分 词 的 方法 主要 包括 :基于 规则 的 方法 和 基 
于 统计 机 器 学 习 的 方法 两 类 。 基 于 规则 的 方法 适用 于 


等 开发 了 开放 域 的 事件 抽取 系统 FSA。 在 机 器 学 习 法 
中 ,事件 抽取 的 原理 是 通过 选择 和 构建 分 类 器 进行 分 
类 " ,主要 包括 事件 类 型 .事件 元 素 ( 事 件 模 板 中 的 村 
和 事件 参与 者 ) 的 识别 等 。 在 现 有 研究 中 ,L. C. Chieu 
等 将 最 大 炉 分 类 顺 引 入 到 事件 抽取 中 ,促进 了 事件 元 
素 的 识别 ”;D，Ahn 运用 MegaM ,Timbl] 机 器 学 习 法 对 
事件 类 型 和 事件 元 素 识别 进行 研究 ,能够 很 好 地 处 理 
ACE 英文 语 料 " ; 赵 妍 妍 等 基于 触发 词 集合 ,从 文本 
中 抽取 候选 事件 ,运用 二 元 分 类 器 选择 合适 的 候选 事 
作 * 并 引入 最 大 焙 分 类 器 对 事件 进行 识别 ” ;于 江 德 等 


3 类 事件 要 素 的 特征 构建 隐 马 尔 可 夫 模 
型 四 ,并 基于 模型 从 语句 中 抽取 事件 要 素 。 


请 


< 二 此 外 ,很 多 不 同 领域 的 学 者 结合 自身 研究 背景 对 
9B 四 取 进 行 了 研究 。 比 如 ,吴平 博 等 关注 网 络 事件 
建 信息 的 抽取 ,利用 句 型 模板 制定 信息 抽取 规则 ， 
基 搜 规则 确定 文本 中 的 待 抽取 事件 ,并 经 过 时 间 短语 
谈 全 ,基本 短语 识别 等 流程 抽取 出 质量 较 高 的 事件 信 
息 5 策 不 同事 件 的 分 割 成 为 可 能 ” ; 姜 吉 发 以 “ 知 网 中 
允 词 库 "( HowNet) 为 基础 ,对 灾害 事件 伤亡 人 员 的 角 
色 痛 息 抽取 进行 研究 ,提出 一 种 跨 语 句 的 汉语 事件 信 
息 抽取 方法 ,并 在 抽取 待 抽取 事件 角色 的 基础 上 确定 
事 全 角色 ,得 到 较 高 的 召回 率 和 准确 率 !” ; 郑 家 恒 竺 
对 农作物 品种 描述 模式 的 获取 进行 研究 ,发 现 研究 对 
象 的 规模 和 研究 结果 的 准确 性 成 反比 "" ; 杨 尔 弘 对 突 
发 事件 新 闻 报道 的 信息 获取 进行 研究 ,基于 事件 文本 
地 征 构建 突 发 事件 信息 抽取 模型 ,方便 了 特定 的 信息 
和 信息 结构 的 抽取 。 
2.2 古文 信息 处 理 进展 

典籍 数字 化 迅速 发 展 的 背景 下 ,自然 语言 处 理 技 
术 的 逐渐 成 熟 推进 了 古文 信息 处 理 的 发 展 “。 古 文 
信息 处 理 是 利用 信息 技术 对 古文 的 音 、 形 、 义 进行 加 
工 , 并 在 此 基础 上 对 古文 进行 深度 挖掘 和 知识 发 现 。 
内 容 方面 ,古文 信息 资源 主要 通过 古文 数字 化 的 形式 
获得 ,就 是 以 数字 化 的 形式 将 典籍 记录 .存储 在 计算 机 
等 可 读 媒 介 内 。 方 法 方面 , 随 着 计算 机 技术 的 不 断 发 
展 ,学 者 开始 将 机 器 学 习 的 方法 引入 数字 人 文 领域 , 利 
用 其 对 古文 进行 处 理 和 加 工 , 主要 包括 古文 分 词 和 面 


ly 


已 知 句 式 特征 等 情形 的 结构 化 文本 ,但 是 对 于 非 结 构 
化 文本 的 分 词 ,很 难 取得 理想 的 效果 。 因 此 ,更 多 的 学 
者 选择 基于 统计 机 器 学 习 的 方法 进行 文本 分 词 ,参考 
基于 统计 机 器 学 习 对 现代 文本 进行 分 词 的 方法 ,同时 
在 常见 的 机 器 学 习 模型 中 加 入 词 表 辅助 计算 机 进行 分 
词 ,比如 地 名 表 、 人 名 表 注 玻 词 表 等 词 表 '…: 。 利 用 机 
器 学 习 进 行 自 动 分 词 能 够 取得 较 好 的 效果 ,已 经 在 很 
多 古文 本 上 得 到 应 用 ,如 《 楚 辞 》” 《孟子 ) "等 。 

针对 古 汉语 命名 实体 识别 的 研究 同样 也 得 到 越 来 
越 多 学 者 的 关注 ,为 古文 本 的 知识 挖掘 奠定 了 坚实 的 
基础 。 古 汉语 命名 实体 识别 主要 包括 人 名 、 地 名 等 实 
体 , 其 中 条 件 随机 场 模型 使 用 得 最 多 ,取得 了 较为 理想 
的 效果 ,并 且 已 经 应 用 在 《三 国 演义 )"" 《春秋 经 
传 ) "等 多 部 典籍 之 中 。 
2.3 述评 

近年 来 事件 抽取 和 古文 信息 处 理 受到 学 者 们 的 广 
泛 关注 ,从 典籍 数字 化 发 展 到 古文 智能 处 理 , 并 在 自动 
分 词 .命名 实体 识别 等 方面 取得 一 些 不 错 的 效果 。 目 
前 ,已 有 部 分 研究 利用 模式 匹配 和 机 器 学 习 的 方法 对 
古文 进行 处 理 和 分 析 , 但 在 后 续 人 研究 时 存在 针对 性 不 
昌 、 适 用 性 不 足 等 弊端 。 因 此 ,本 文 构建 4《 左 传 》 战 争 
事件 的 基本 框架 体系 ,以 模式 匹配 法 为 基础 ,首先 构建 
触发 词 表 ,过 滤 得 到 候选 战争 句 集合 ,再 通过 建立 的 一 
系列 规则 从 候选 集合 中 抽取 出 战争 句 , 从 而 得 到 《 左 
传 》 战 争 句 语 料 。 同 时 ,根据 之 前 构建 的 战争 事件 框 
架 , 基 于 条 件 随机 场 模型 ,结合 《 左 传 》 文 本 中 战争 句 
的 上 下 文 特征 、 词 性 特征 、 标 记 特 征 和 指示 词 特征 , 进 
行 多 次 实体 自动 识别 实验 ,对 实验 结果 进行 分 析 比 较 
后 ,选取 最 优 方案 得 到 这 些 实体 ,具体 包括 :战争 时 间 、 
进攻 方 防守 方 战争 地 点 .战争 触发 原因 ,战争 结果 及 
援军 。 最 后 ,基于 以 上 7 个 维度 ,利用 统计 分 析 的 方 
法 上 -Charts 工具 对 数据 进行 分 析 与 可 视 化 展示 。 


3 ”研究 框架 


3.1 研究 的 总 体 思路 

根据 前 述 的 分 析 和 总 结 ,本文 研究 框架 见 图 1。 
首先 ,基于 《 左 传 》 语 料 构建 4《 左 传 》 战 争 事件 杠 
架 , 对 《 左 传 》 战 争 事 件 进行 结构 化 描述 .知识 表示 。 
在 事件 抽取 阶段 ,本 文 使 用 效果 更 易 控制 的 模式 匹配 
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《 左 传 》 a 命名 实体 数据 可 视 
| ?| 知识 表示 [>| 事件 抽取 | 站 ”识别 化 展示 
二 用 下 A 

《 左 触 
传 》 战 安 | | 当 二 
争 事件 词 库 模型 
框架 表 ee 


图 1 研究 框架 


方法 进行 战争 句 识别 ,通过 构建 触发 词 表 并 利用 触发 
词 表 匹 配 得 到 初步 的 事件 句 集合 ,并 通过 规则 库 匹配 
实现 事件 句 抽取 。 其 次 ,进行 命名 实体 的 识别 与 抽取 ， 
通过 对 抽取 的 战争 事件 句 集合 进行 观察 分 析 , 综 合 《 左 
传 ) 文 本 上 下 文 窗口 长 度 .词性 和 指示 词 等 特征 ,基于 
五 词 位 标注 体系 对 战争 事件 句 集合 进行 人 工 标注 ,并 
利用 条 件 随机 场 模型 对 命名 实体 进行 识别 和 抽取 。 
3 《 左 传 ) 战 争 事件 框架 的 建立 

全 历史 学 领域 认为 ,战争 事件 的 主要 构成 要 素 包 括 
战 饥 时 间 .交战 双方 (进攻 方 .防守 方 ) .战争 地 点 、 战 
氢 负 发 原因 以 及 成 争 结果 。 通 过 对 《 左 传 》 的 阅读 ,本 
-发现 ( 左 传 》 中 关于 战争 的 描述 同样 涵盖 以 上 的 元 
未 中 此 外 ,《 左 传 》 中 战争 事件 的 播 述 还 包括 对 于 救援 
训 # 的 描述 ,因此 本 文 将 战争 分 为 征战 类 和 救援 类 两 
ee a 
体能 够 更 加 具体 、 完 整地 描述 《 左 传 ) 中 的 战争 事件 。 
据 记 ,本 文 构建 ( 左 传 战争 事件 信息 基本 框架 ,如 图 2 
所 有 示 


下 栓 架 名 ,《 左 传 ) 战争 


2 《 左 传 ) 战 争 事件 信息 基本 框架 


示例 1: 十 年 春 ,讲师 伐 我 , 战 于 长 勺 , 讲 师 败 续 。 

以 此 框架 为 基础 ,对 示例 1 征战 类 事件 的 战争 句 
进行 抽取 ,得 到 的 信息 框架 见 图 3。 

示例 2: 秋 , 楚 子 图 许 以 救 邮 , 诸 侯 救 许 , 乃 还 。 

以 此 框架 为 基础 ,对 示例 2 救援 类 事件 的 战争 句 
进行 抽取 ,得 到 的 信息 框架 见 图 4。 


框架 名 :《 左 传 》 战争 
征战 类 事件 ; 
战争 时 间 ; 十 年 春 
进攻 方 ， 塞 师 
防守 方 : 我 
战争 地 点 :长 入 
战争 结果 ， 闭 全 败绩 


图 3 示例 1 的 抽取 信息 框架 


框架 名 :《 左 传 》 战 争 
救援 类 事件 ; 

战争 时 间 ; 秋 

进攻 方 ， 楚 子 


图 4 示例 2 的 抽取 信息 框架 


4 关键 技术 


4.1 战争 句 识 别 

目前 ,学 者 常用 的 事件 句 抽取 方法 包括 :基于 模式 
匹配 的 方法 和 基于 机 器 学 习 的 方法 。 其 中 ,模式 匹配 
法 适用 于 事件 句 较 短 , 且 总 语 料 数据 规模 较 小 的 文本 。 
模式 匹配 法 以 特征 匹配 的 方法 进行 事件 句 抽取 ,以 语 
言 学 为 基础 对 待 抽取 文本 进行 句法 分 析 , 寻 找 目 标 主 
题 句 的 规律 及 其 与 其 他 主题 句 的 差异 。 触 发 词 能 够 表 
达 事件 名 之 间 差 异 的 重要 特征 ,通过 构建 触发 词 表 找 
出 包含 触发 词 表 中 的 句子 ,并 在 优先 保证 检 全 率 的 前 
提 下 ,通过 规则 的 制定 ,从 中 剔除 不 符合 条 件 的 句子 ， 
最 终 得 到 《 左 传 》 战 争 事件 主题 句 集合 。 

同时 ,鉴于 《 左 传 》 语 料 句法 特征 的 复杂 性 ,基于 
完备 性 、 针 对 性 和 可 行 性 的 原则 进行 模式 匹配 ,具体 步 
又 为 :中 构建 4 左 传 》 战 争 事 件 触发 词 表 。《 左 传 》 中 描 
述 战 争 事 件 的 文本 具有 一 定 的 规律 ,可 以 根据 某 些 与 
战争 有 关 的 特殊 词 迅 速 定位 到 待 抽 取 的 目标 句 , 如 攻 、 
伐 等 ,将 这 些 特殊 词 进 行 归纳 整理 ,得 到 《 左 传 ) 战 争 
事件 触发 词 表 。@ 定 位 包含 触发 词 的 语句 ,抽取 候选 
语句 。 根 据 《 左 传 》 战 争 事件 触发 词 表 ,可 以 得 到 《 左 
传 》 语 料 中 包含 特定 触发 词 的 语句 ,将 这 些 语句 抽取 出 
来 作为 候选 战争 句 。(3) 剔 除非 战争 句 。 最 后 基于 制定 
的 模式 和 原则 ,对 第 二 步 中 得 到 的 战争 句 和 类 战争 句 
集合 中 的 类 战争 句 进行 过 滤 。 
4.2 触发 词 表 构建 

触发 动词 是 进行 模式 抽取 前 预先 归纳 的 特殊 动 
词 ,是 抽取 战争 相关 要 素 的 关键 和 基础 。 通 过 触发 动 
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词 能 够 缩小 文本 范围 ,提高 规则 制定 的 效率 和 针对 性 。 
张 秋 霞 对 《 左 传 》 文 本 中 征战 类 动词 的 研究 ,将 《 左 传 》 
文本 中 征战 类 动词 分 为 9 类 :起 兵 类 、 交 战 类 、 攻 伐 类 、 
率领 类 .侵扰 类 , 式 杀 类 防御 类 俘获 类 ,战果 类 ,如 表 
1 所 示 : 


表 1 《 左 传 》 征 战 类 动词 词 表 


动词 分 类 动词 名 
起 兵 类 起 兴 . 举 . 称 .出 师 
率领 类 将 , 率 帅 以 
交战 类 合 . 遇 鼓 . 陈 
侵扰 类 侵 ,大 , 犯 咯 , 冠 . 拖 , 陵 , 突 
攻 伐 类 伐 玫 . 军 .追逐 .用 击 , 斗 战 .要 .从 . 伏 . 征 
六 杀 类 兵 杀 . 烘 , 经 新 . 攻 
防御 类 御 成 . 亢 , 待 . 当 \ 守 
傈 台 类 取保. 获 、 信 


1 六 
大 


克 \ 胜 败北. 灭 捷 \ 倾 骨 、 禾 溃 . 降 .未 


和 基于 对 ( 左 传 ) 文本 的 阅读 以 及 对 战争 名 中 触发 
词 的 归纳 ,， 总 结 , 本 文 对 张 秋 霞 划分 的 9 类 征战 类 动词 
遂 人 简化 , 别 除 不 在 战争 捕 思 中 单独 使 用 且 与 其 他 作 
眠 并 词 同时 使 用 的 词 如 :起 . 率 . 杀 ,和 疲 等 。 同 时 ,本 文 
斑 区 于 勇 等 对 ( 左 传 ) 中 战争 事件 的 定义， 加 入 背叛 和 
放 六 两 个 类 别 得 到 如 下 触发 词 表 :“ 刻 /v, 攻 /»， 
目 oN a 突 /v, 诗人/v , 降 /v, 追 /v， 
5， 和 人 /v , 救 Av ,中 /Av, 伐 /Av ,由 /Av, 侵 Av, 克 /v， 助 Lv， 
二 溅 /v, 陈 /v, 逐 /v, 上 略 /v”。 完 成 触发 词 表 的 
建 罚 后 ,对 整个 ( 左 传 》 语 料 进 行 初步 辨别 ,从 中 抽取 
出 窒 有 触发 词 、 且 触 发 词 词性 为 动词 的 语句 ,最 终 得 到 
一 个 包 信 战争 句 和 类 战争 句 的 集合 。 
4.3 命名 实体 识别 

在 运用 条 件 随机 场 模 型 前 期 ,需要 一 系列 实验 算 
法 的 设计 ,主要 包括 序列 化 标注 ,特征 选择 和 特征 模板 
的 制定 等 。 
4.3.1 序列 化 标注 

基于 机 器 学 习 的 命名 实体 识别 ,从 根本 上 来 讲 , 可 
以 转化 为 序列 化 标注 的 问题 ,也 就 是 从 语句 中 识别 出 
实体 ,并 对 其 中 的 实体 进行 自动 标注 , 即 对 语句 中 的 字 
或 词语 进行 分 类 ,并 对 其 具体 类 别 ( 人 名 、 地 名 、 时 间或 
其 他 类 别 ) 进行 判断 。 

序列 化 标注 的 单位 选择 是 问题 解决 的 关键 ,单位 
选择 因 具 体 任务 的 不 同 而 有 所 区 别 。 理 论 上 来 讲 , 在 
自动 分 词 和 词性 标注 的 过 程 中 ,通常 会 选择 单字 为 单 
位 ;在 句法 分 析 和 语义 角色 标注 的 过 程 中 , 则 通常 会 选 
择 词 语 为 单位 。 在 命名 实体 识别 的 具体 实践 过 程 中 ， 


基于 单字 序列 和 基于 词语 序列 的 方法 都 有 应 用 ,两 者 
也 各 有 优 劣 : 以 单字 为 序列 的 方法 ,能 够 提供 更 丰富 的 
特征 ,为 计算 机 学 习 提 供 便利 ,但 对 实体 边界 的 判断 具 
定 难 度 ; 以 词语 为 序列 的 方法 ,虽然 不 能 利用 单字 
级 别 的 特征 ,但 在 判断 实体 的 边界 方面 具有 一 定 的 优 
另外 ,小 语 料 若 使 用 词语 级 的 序列 ,会 出 现 数据 稀 
玻 的 问题 ,导致 训练 不 充分 ,影响 实体 识别 结果 。 由 于 
《 左 传 》 语 料 规模 较 小 , 且 目 前 古 汉语 实体 识别 多 以 单 
字 为 单位 ,本文 选择 单字 作为 序列 化 标注 的 单位 。 
以 单字 为 单位 对 《 左 传 》 进 行 序列 化 标注 ,就 是 对 
《 左 传 》 中 每 个 汉字 进行 分 类 。 在 命名 实体 识别 的 过 
程 中 ,通常 要 在 已 有 实体 类 别 的 基础 上 再 进行 一 次 分 
类 ,表示 出 每 个 汉字 在 实体 中 的 位 置 , 一 般 为 W( 单 独 
构成 实体 ) .B( 实 体 首 字 ) .M( 实 体 中 间 字 ) 上 (实体 尾 
字 )。 基 于 此 ,本 文 定义 了 包含 25 个 类 别 的 集合 Q ,用 
于 序列 化 标注 的 实体 识别 ,如 下 所 示 : 
B-ATT, M-ATT,E-ATT, W-ATT, B-DEF , M-DEF , E-DEF, 
W-DEF ,B-TIME, M-TIME ,E-TIME ,W-TIME , B-HEL, 
M-HEL, E-HEL, W-HEL, B-RES, M-RES, E-RES, 
W-RES,B-REA,M-REA,E-REA,W-REA,O 


为 直观 展示 实体 的 序列 化 标注 ,本 文 以 4 左 传 》 中 


的 战争 句 " 郑 伯 克 段 于 导 "为 例 , 进 行 直观 展示 ,如 例 
(1) 所 示 : 
郑 伯 克 段 
例 (1) 
x x XxX Xx Xx 


其 中 XeQ, 命 名 实体 识别 的 目的 就 是 判断 每 个 汉 
字 的 所 属 关 别 ， 例 (1) 中 的 语句 经 过 正确 的 实体 识别 
之 后 ,结果 如 例 (2) 所 示 : 
郑 伯 克 段 于 于 
B-ATT EATT 0 WDEF 0 WLOC 


例 (2) 


通过 B ES 等 子 类 别 中 蕴含 的 信息 得 知 , 例 (2) 
语句 包含 郑 伯 ( 人 名 ) 、 段 (人 名 ) 和 对 (地 名 ) 等 实体 。 
由 此 ,通过 序列 化 标注 的 方式 识别 出 示例 一 个 战争 名 
中 的 实体 。 

4.3.2 特征 选择 
特征 选择 是 命名 实体 识别 的 关键 ,能 够 对 模型 性 
能 的 发 挥 产生 直接 影响 。 特 征 ,一般 理 解 为 分 类 模型 
中 ,能 够 表示 类 别 的 元 素 。 在 序列 化 标注 模型 中 ,汉字 
或 者 词语 可 以 看 作 一 种 特征 ,另外 还 可 以 根据 模型 任 
务 来 增加 更 多 特征 ,比如 在 命名 实体 识别 过 程 中 ,可 以 
增加 姓氏 、 地 名 、 词 性 等 多 项 特征 。 本 文 将 以 古 汉 语 典 
籍 中 的 命名 实体 识别 为 任务 ,在 汉字 或 词语 本 身 特征 
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之 外 增加 上 下 文 窗口 长 度 、 标 记 、 单 词 词性 和 实体 指示 
词 等 特征 。 
4.3.3 特征 模板 制定 

特征 模板 是 条 件 随 机 场 模型 在 训练 过 程 中 ,结合 
所 需 识 别 的 序列 单位 的 长 度 , 将 前 后 字 的 信息 及 特征 
信息 作为 组 合 概 率 的 信息 集合 。 简 言 之 ,特征 模板 就 
是 来 定义 从 训练 集中 提取 特征 的 方法 。 在 著名 的 条 件 
随机 场 开源 工具 CRF + + 中 ,特征 模板 通过 定义 模板 
文件 中 的 特征 模板 来 提取 训练 文本 和 测试 文本 的 特 
征 ,再 通过 训练 集中 的 特征 参数 进行 CRF 模型 计算 。 
因此 ,在 进行 CRF 训练 时 ,要 事先 根据 训练 语 料 的 特 
点 选择 合适 的 特征 模板 ,进而 实现 模型 的 计算 。 通 过 
不 断 地 实验 和 调整 ,本 文 设 定 的 模板 窗口 大 小 有 [ - 1， 
1FE-2,2] 和 [ -3,3] ,并 通过 简化 特征 模板 来 观察 最 
局 的 效果 。 


O),., 
SG 诡 验 与 结果 分 析 


5 全 关 验 方案 
sa 和 jl 数据 来 源 
写 存 秋 时 期 成 乱 不 断 \ 诸 侯 争 霸 ,( 左 传 》 中 关于 战 
分 移 记 录 非 常 全 面 , 记 叙 详 尽 .因果 完备 .结构 完整 , 具 
月 常 大 的 优势 。 同 时 ,《 左 传 ) 文 本 的 句法 结构 和 形 
式 尖 有 规律 性 ,处 理 起 来 比较 方便 ;《 左 传 ) 全 文 约 18 
万 碌 字 ,记录 了 9 671 个 词汇 ,具有 更 为 丰富 、 且 适用 于 
系 嗓 研究 的 词汇 量 。 另 外 ,《 左 传 ) 文本 中 的 标志 性 词语 
明 钱 ,便于 在 文本 中 标注 和 定位 ,快速 获取 关键 语句 , 缩 
短 铭 据 处 理 时 间 。 为 进一步 保证 研究 的 准确 性 ,本 文采 
用 本 京师 范 大 学 陈 小 荷 团队 构建 的 《 左 传 ) 语 料 ,已 经 对 
《 左 传 ) 文 本 进行 了 校对 与 分 词 。 并 以 此 为 基础 ,用 模式 
匹配 法 识别 并 构建 本 研究 所 需 的 战争 句 语料库 。 
5.1.2 测评 指标 

对 每 次 实验 结果 都 应 设 定 相应 的 评价 指标 或 评价 
体系 ,在 本 实验 中 ,我 们 选用 的 实验 测评 指标 主要 包括 
准确 率 、 召 回 率 和 下 值 ,具体 的 公式 定义 如 下 : 
准确 率 = 系统 标注 正确 的 属于 实体 的 词 数 /系统 
标 出 的 属于 实体 的 词 数 * 100% 

召回 率 = 系统 标注 正确 的 属于 实体 的 词 数 /测试 
集中 出 现 的 属于 实体 的 词 数 

F 值 =2 * 正确 率 * 召回 率 /( 正 确 率 + 召回 率 ) * 
100% 
5.1.3 实验 环境 

(1)CRF + + 工具 包 的 选择 。 目 前 ,基于 条 件 随 机 
场 模型 的 开源 工具 主要 有 pocket crf、flexcrf 和 


CRF + + 。 根 据 前 人 研究 的 经 验 , 可 知 CRF + + 是 目前 
最 受 开 发 者 欢迎 的 工具 包 , 表 明 CRF + + 具有 较 好 的 
性 能 ,因此 ,本 研究 选取 CRF + + 工具 包 作 为 实验 工具 
包 (CRF + +0.58 版 本 ) 。 

(2)CRF + + 工具 包 的 使 用 。CRF + + 工具 包 使 
月 时 需要 用 到 以 下 6 个 文件 :QDerf_learn. exe:CRF + + 
的 训练 程序 ; @) crf_test. exe: CRF + + 的 预测 程序 ; 
G)libcrfpp. dl :训练 程序 和 预测 程序 需要 使 用 的 静态 链 
接 库 ;(Dtemplate. data: 存 放 特 征 模板 的 文件 ;Go)train. da- 
ta: 存 放 训 练 语 料 的 文件 ;(@test. data: 存 放 测 试 预料 的 文 
件 。 整 个 CRF + + 工具 包 所 包含 的 文件 如 图 5 所 示 : 


目 0.58 版 本 ,txt 
图 crf.bat 

[Ea] crf_ learn.exe 
El] crf test,exe 
芭 libcrfpp.dll 


| 


| | templatel 
LL template2 
| template3 


| | template4 


图 5 CRF + + 工具 包 文 件 构 成 


CRF + + 工具 包 对 语 料 的 格式 具有 非常 严格 的 要 
求 ,一 般 而 言 ,在 CRF 模型 的 训练 文本 和 测试 文本 中 
包含 多 个 tokens( 在 词法 分 析 中 是 标记 的 意思 ) ,其 中 
每 一 行 表 示 一 个 token。 每 一 行 包括 两 列 或 以 上 的 数 
据 , 第 一 列表 示 字 ,最 后 一 列表 示 对 该 字 的 标注 ,中 间 
列 为 可 选择 项 (可 不 加 ,也 可 一 个 或 多 个 ) ,表示 与 该 
字 相 关 的 语言 特征 。 换 言 之 ,CRF 模型 的 训练 文本 一 
般 包 括 观察 值 .相应 的 特征 以 及 状态 值 。 加 入 一 个 特 
征 时 的 训练 文本 示例 如 表 2 所 示 : 

表 2 加 入 特征 的 训练 文本 示例 


字符 特征 标注 

四 t B-TIME 
月 t E-TIME 

， W 0 
部 n B-ATT 
人 n E-ATT 
及 V VI 

区 ns B-DEF 
的 ns E-DEF 
， W 0 

C B-REA 
报 v M-REA 
更 i M-REA 
门 M-REA 
u M-REA 
役 n E-REA 
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表 2 的 第 一 列 代表 字符 本 身 ( 观 察 值 ) ,第 二 列 为 
根据 语 料 特点 选择 加 入 的 特征 (本 示例 加 入 的 是 词性 
特征 ) ,最 后 一 列 为 该 字符 的 字 序 标注 (状态 值 ) 。 同 
时 ,本 文 要 用 tab 键 ( 制 表 符 ) 将 列 与 列 之 间隔 开 , 如 果 
语句 以 标点 符号 结尾 (如 “。”“?”“1” 等) , 则 用 换行 符 


后 生成 的 测试 结果 文件 。 岂 对 所 生成 的 测试 结果 文件 
进行 评估 ,测试 命令 为 “conlleval. pl < output. txt”。 
5.2 测评 结果 

5.2.1 战争 句 识 别 效果 测评 

本 文 以 词性 特征 和 标注 体系 符合 特征 为 基础 , 采 


对 句子 进行 空 行 处 理 ,将 句子 与 句子 之 间 用 一 个 空 行 
隅 开 。 

CRF 模型 的 测试 语 料 格式 与 训练 语 料 大 致 相同 ， 
唯一 的 不 同 是 测试 语 料 可 以 不 包含 最 后 一 列 , 即 对 第 
一 列 字 符 的 标注 列 。 最 后 通过 CRF 模型 训练 得 到 结 
果 的 数据 格式 与 训练 语 料 的 格式 相同 ,只 是 多 了 训练 
后 得 到 的 结果 列 ,如 表 3 所 示 : 

表 3 战争 实体 识别 结果 文本 示例 


特征 标注 结果 
t B-TIME B-TIME 
t E-TIME E-TIME 
Ww 0 0 
n B-ATT B-ATT 
n E-ATT E-ATT 
V VI VI 
ns B-DEF B-DEF 
ns E-DEF E-DEF 
WwW 好 0 
< B-REA B-REA 
wz 时 M-REA M-REA 
ye n M-REA M-REA 
SS 
(avi n M-REA M-REA 
Se 
ms u M-REA M-REA 
mm 
【i n E-REA E-REA 
© o W 0 0 


CRF + + 的 执行 有 以 下 4 个 步骤 :中 将 CRF + + 工 
具 包 自 带 的 crf_learn. exe crf{_test. exe libecrfpp. dll 和 
template. data 4 个 文件 放 在 同一 个 文件 夹 下 ,并 根据 需 
要 修改 特征 模板 文件 。 同 时 将 完成 格式 转化 的 训练 语 
料 文本 和 测试 语 料 文本 放 到 前 述 文件 夹 中 。@) 对 语 料 
进行 CRF 训练 ,并 执行 命令 :“ crf_learn template train. 
data model”。 其 中 ,crf_learn 是 条 件 随机 场 的 学 习 算 
法 ,template 是 特征 模板 文件 的 文件 名 ,train. data 是 训 
练 语 料 文本 ,“. data” 是 训练 语 料 文 本 的 文件 格式 名 ， 
model 是 训练 过 程 中 生成 的 模型 文件 。(B® 利 用 “crf_test 
-m model test. data > output. txt” 命令 进 行 测试 。 其 中 ， 
crf_test 是 条 件 随机 场 的 测试 算法 ,model 是 训练 过 程 
中 生成 的 模型 文件 ,test data 是 测试 语 料 文本 ,“. data” 
是 测试 语 料 文 本 的 文件 格式 名 ,output. txt 是 CRF 测试 


三 种 不 同 的 特征 模板 进行 实验 ,其 中 模板 一 、 模 板 
二 和 模板 三 的 上 下 文 窗口 长 度 分 别 为 | -1,1][ -2， 
2][ -3,3]。 同 时 在 3 个 不 同 的 特征 模板 下 进行 33 次 
实验 ,选择 每 个 模板 实验 获得 的 最 佳 效果 ,如 表 4 所 
不 : 


= 


表 4 基于 条 件 随机 场 的 《 左 传 > 战 争 实体 
识别 对 照 组 实验 结果 


特征 模板 。” 正确 率 (Precision) 召回 率 (Racall) ”下 值 (Fscore) 
模板 一 82. 699 9% 80.484 7% 81.577 2% 
模板 二 80.356 8% 79. 688 8% 80.021 4% 
模板 三 79.905 3% 79.550 1% 79.566 5% 


根据 表 4, 发 现 当 上 下 文 窗口 长 度 为 | -1,1] 时 ， 
取得 最 优 实体 识别 效果 ,F 值 达 到 82. 699 9% ,其 次 为 
上 下 文 窗口 长 度 为 [ -2,2][ -3,3] 时 。 同 时 ,根据 表 
4, 本 文 发 现 利 用 条 件 随机 场 模型 进行 命名 实体 识别 ， 
不 管 选用 哪 一 套 特 征 模板 ,准确 率 和 召回 率 均 达到 较 
高 水 平 , 均 为 80% 左右; 另外 , 随 着 上 下 文 窗口 长 度 的 
增加 ,正确 率 和 召回 率 均 呈 下 降 趋势 。 

综 上 ,本 文 认为 窗口 长 度 对 实体 识别 结果 具有 一 
定 影响 ,上 下 文 窗口 长 度 越 长 准确 率 越 低 ;基于 条 件 随 
机 场 的 古 汉 语 命名 实体 是 可 行 的 ,并 且 拥 有 较为 突出 
的 效果 。 
5.2.2 不 同 特征 模板 的 命名 实体 识别 

(1) 加 入 词性 特征 的 CRF 实体 识别 实验 。 在 此 次 
实验 中 加 入 词性 特征 ,通过 对 不 同 特征 模板 进行 对 比 
实验 ,得 到 的 实验 结果 见 表 5。 上 下 文 窗口 长 度 的 选 
择 参照 上 述 实验 ,其 中 模板 一 的 上 下 文 窗口 长 度 为 | - 
1,1] ,模板 二 的 上 下 文 窗口 长 度 为 [ -2,2] ,模板 三 的 
窗口 长 度 为 [ -3,3]。 

表 5 ”加 入 词性 后 的 《 左 传 》 战 争 实体 识别 实验 结果 


特征 模板 ”正确 率 (Precision) ”召回 率 ( Racall) F 值 (Fscore) 
模板 一 81.348 9% 81. 649 0% 81.498 6% 
模板 二 81.412 7% 81.407 8% 81.389 4% 
模板 三 81.510 2% 81.180 0% 81.344 7% 


根据 表 5 中 数据 ,本 文 发 现 词 性 特征 的 加 入 使 得 
正确 率 和 召回 率 出 现 小 幅 提升 ,上 下 浮动 不 超过 
0.5% ,不 同窗 口 长 度 的 特征 模板 对 实体 识别 实验 影响 
较 小 ,没有 出 现 上 述 实验 中 上 下 文 窗口 长 度 和 准确 率 
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呈 反 比 的 现象 。 究 其 原因 ,可 能 是 词性 特征 对 实体 本 
身 的 帮助 并 不 大 ,或 是 词性 特征 对 实验 产生 一 定 帮助 ， 
从 而 造成 一 定 的 反作用 。 但 是 ,通过 观察 ,本文 发 现在 
实验 中 加 入 词性 特征 ,使 得 每 次 实验 产生 的 各 项 指标 
值 非常 接近 ,表明 词性 特征 对 实验 效果 的 稳定 性 有 
定 影 响 。 

综 上 ,本 文 认为 将 词性 特征 加 入 实体 识别 ,对 于 实 
验 效 果 的 影响 较 小 。 本 文 将 在 后 面 的 实验 中 加 入 各 类 
实体 指示 词 ,以 期 能 够 提升 命名 实体 识别 效果 。 

(2) 加 入 实体 指示 词 特征 的 CRF 实体 识别 实验 。 
此 次 实验 中 ,只 选用 窗口 长 度 为 1 和 2 的 特征 模板 。 
另 一 方面 ,为 了 验证 特征 模板 对 实验 的 影响 ,另外 编写 


率 均值 达 87.54% 。 通 过 模板 一 和 模板 二 的 对 比 , 发 现 
窗口 长 度 对 实体 识别 效果 有 一 定 影响 ,窗口 长 度 为 2 
时 的 正确 率 比 窗口 长 度 为 1 时 的 正确 率 要 高 ,但 是 召 
回 率 却 有 所 下 降 。 通 过 模板 二 和 模板 三 的 对 比 ,发 现 
模板 写法 的 略微 改动 对 实验 效果 也 有 一 定 影响 ,表明 
在 特征 模板 的 编写 上 需要 进行 不 断 的 尝试 和 改进 。 同 
时 ,本 文 发 现 三 个 特征 模板 得 出 的 了 值 很 接近 ,综合 


现 相 当 。 
s.3 数据 的 应 用 
5.3.1 战争 事件 统计 


《 左 传 》 战 争 中 进攻 方 和 防守 方 有 多 种 表达 方法 ， 
包括 以 人 名 表示 、 以 地 名 表示 、 以 姓氏 加 官位 进行 表示 
等 。 为 实现 数据 统一 ,本 文通 过 建立 人 名 、 地 名 和 国家 


一 个 窗口 长 度 一 样 ,但 是 写法 有 区 别 的 模板 (模板 三 较 
模板 二 稍 做 简化 ) 进行 对 比 实验 。 其 中 模板 一 的 窗口 
站 为 1 ,模板 二 和 模板 三 的 窗口 长 度 为 2。 此 次 实验 


加 杰 慰 注 后 的 示例 如 表 6 所 示 : 
@， 表 6， 加 入 实体 指示 词 的 战争 实体 标注 示例 


Cf 特征 指示 词 标注 
(@y | p Y 0 
CS x 0 
| ns B-REA 
me w Y M-REA 
> ns M-REA 
全 d M-REA 
全 a M-REA 
一 
《KK p Y M-REA 
《 街 ns E-REA 
W 0 
故 c TY Y 0 
宋 nr B-ATT 
公 nr E-ATT 
W Y 0 
陈 nr B-ATT 
候 nr E-ATT 


选取 三 个 模板 交叉 实验 后 的 最 优 实验 结果 ,得 到 
的 实验 结果 如 表 7 所 示 : 
表 7 加 入 实体 指示 词 的 《 左 传 ) 战 争 实体 识别 实验 结果 


特征 模板 ” 正确 率 (Precision) ”召回 率 (Racall) F 值 (Fscore) 
模板 一 85. 676 0% 84.321 5% 84. 993 4% 
模板 二 87. 641 9% 81.764 7% 84.601 3% 
模板 三 89.295 0% 80.470 6% 84.653 5% 


进行 对 应 的 方式 实现 对 战 双方 实体 和 国家 的 对 应 ,最 
终 得 到 《 左 传 》 对 战 双方 表 ( 示例 ) 见 表 8, 通 过 此 表 中 
进攻 方 和 防守 方 的 两 列 数据 ,统计 出 《4 左 传 》 中 各 国 参 
与 战争 的 频次 ,直观 了 解 春秋 时 期 各 国 参战 情况 。 同 
时 ,本 文通 过 Tableau 软件 生成 参战 国家 的 词 云图 见 图 
6 ,以 此 来 展示 各 个 国家 参战 的 频率 。 另 外 ,本 文 对 《 左 
传 》 中 的 战争 事件 进行 统计 ,结果 显示 救援 类 事件 共 
69 件 ,征战 类 事件 共 1 020 件 。 
表 8 《 左 传 》 对 战 双方 表 ( 示例 ) 


战争 名 进攻 方 防守 方 
夏 五 月 ,部 伯 因 段 叛 总 而 伐 之 , 克 段 于 于, 段 出 部 
奔 共 
秋 八 月 , 纪 人 伐 夷 纪 夷 
重病 败 宋 师 于 黄 鲁 宋 
( 冬 ) ,入 人 助 公 琛 滑 伐 部 , 取 康 延 本 部 
为 报 和 本 伐 部 ,( 冬 ) , 郑 人 以 王 师 著 师 伐 生 南 鄙 本 部 / 苇 / 周 
夏 五 月 , 莒 人 入 向 ,以 董 氏 还 莒 部 
( 夏 ) ,和 鲁 镍 司空 乱 驴 入 极 , 费 认 父 腾 之 和 鲁 极 
( 冬 ) , 郑 人 伐 卫 , 训 公 航 滑 之 瑟 部 本 
夏 四 月 , 郑 祭 足 锅 师 取 温 之 故 部 于 
秋 , 部 师 又 取 成 周 之 禾 。 周 部 交恶 部 周 
春 二 月 , 莒 人 伐 杞 , 取 件 足 营 杞 
夏 , 宋 陈 蔡 生 伐 部 ,图 其 东 门 ,五 日 而 逮 ( 东 门 ” 宋 / 陈 / 蔡 /入 部 
之 役 ) 
秋 , 宋 陈 蔡 生 及 重复 伐 部 , 败 郑 , 取 其 禾 而 逮 宋 / 陈 / 蔡 / 生 部 
( 季 月 不 详 ) , 雇 人 乘 生 状 之 机 侵 本 万 本 
( 春 ) , 曲 沃 著 伯 以 郑 人 邢 人 伐 翼 , 王 使 尹 氏 武 郑 中 
氏 助 之 ,可 候 奔 随 
夏 四 月 ,部 人 侵 生 牧 , 以 报 东 门 之 役 部 本 
生 人 以 燕 师 伐 郑 ,部 人 以 制 人 败 燕 师 於 北 制 入 / 燕 部 


由 图 6 可 知 ,春秋 时 期 晋 国 、 楚 国 、 齐 国 、 郑 国 、 鲁 


根据 表 7 的 实验 数据 ,发 现在 加 入 实体 指示 词 作 
为 特征 之 后 ,战争 实体 的 识别 效果 出 现 明显 提升 ,正确 


司 、 卫 国 、 宋 国 、 吴 国 \ 秦 国 、 陈 国 、 紫 国 等 国 的 参战 频率 
较 高 ,是 春秋 时 期 战争 的 主要 参与 者 。 战 争 频率 词 云 
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人 5 中 吴征 关 周 " | 莱 人 
和 5 英 
和 钨 宋 * 径 来 首 * 册 hb 


随 上 岂 鲜 谨 须 句 尹 责 邢 赤 狄 

消 过 区 和 振 获 级 划 莓 m 之 或 蘑 闫 ， 胡 到 4 陈 * 虎 

葡 | 4 和 ?并 山下 大 属 好 性 > 1X a 
好 加 傈 磺 Se 原 


中 州 隐 人 4 加 
mf 唐 se 香 尊 洲 吕梁 及 


6 《 左 传 》 战 争 频率 词 云 


图 总 体 上 描述 了 春秋 时 期 各 国 的 相对 参战 次 数 ,无 法 
针对 进攻 方 和 防守 方 进行 细 分 。 因 此 ,本 文 对 各 国 进 
攻 和 防守 的 次 数 (单独 超过 20 次 ) 进 行 统计 ,结果 见 图 
7 和 图 8 ,综合 二 图 可 知 晋 国 主要 作为 进攻 方 参与 战 
争 3 太 动 进攻 152 次 ,防守 41 次 ; 郑 国 主要 以 防守 方 参 
Ws 但 其 进攻 次 数 也 相对 较 多 。 


2 
Se 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 
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息 ”图 7 《 左 传 ) 中 战争 进攻 方 进攻 次 数 统计 
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图 8 《 左 传 》 中 战争 防守 方 防守 次 数 统计 

同时 ,本 文 对 交战 地 点 (发 生 战 争 超过 10 次 ) 进行 
统计 , 见 图 9。 由 图 9 可 知 , 郊 国 、 宋 国 和 卫 国 作为 防守 
方 参战 的 次 数 较 多 ,因此 在 他 们 国土 上 交战 的 次 数 也 
是 最 多 的 。 剩 余 的 作为 战争 地 点 的 多 是 一 些 夹 在 交战 
双方 中 间 的 国家 ,如 夹 在 郑 国 和 宋 国之 间 的 陈 国 和 许 


国 。 
地 点 


9 《 左 传 》 中 战争 地 点 统计 


5.3.2 春秋 时 期 地 图 

本 文 设计 了 一 个 通过 HTML、CSS 和 E-Charts3 种 
技术 实现 的 《 左 传 》 战 争 动态 展示 ,能 更 直观 地 了 解 春 
秋 时 期 的 大 小 战事 ,如 图 10 所 示 


周公 元 年 
衡 国 攻打 部 ,外 周 国 


10 《 左 传 》 战 争 动态 地 图 


《 左 传 》 战 争 动态 地 图 生产 步骤 如 下 :首先 ,将 网 
络 中 的 春秋 地 图 的 图 片 资源 转化 为 可 以 在 HTML 和 下- 
Charts 中 使 用 的 矢量 地 图 ,矢量 化 的 过 程 中 使 用 Arc- 
GIS 作为 工具 ,通过 加 载 底 图 新建 SHP 文件 .设置 各 
个 面 的 属性 值 等 步骤 得 到 一 个 SHP 格式 的 春秋 矢量 
地 图 。 其 次 ,通过 Mapshaper 工具 将 SHP 格式 的 地 图 
转换 为 E-Charts 能 够 解析 的 JSON 格式 的 地 图 数据 。 
第 三 ,利用 纯 Javascript 的 图 表 库 E&-Charts ,将 战争 数据 
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转换 为 直观 、 可 交互 .个 性 化 的 可 视 化 图 表 , 具 体 步 又 
包括 :WD 通过 echarts. init( ) 初始 化 -Charts 实例 并 放 
置 在 div 容器 中 ;@) 采 用 JQuery 提供 的 获取 JSON 文件 
的 语句 $ getjson( ) 异步 加 载 地 图 数据 和 战争 实体 数 
据 ;@ 通 过 setOption( ) 方 法 配置 框架 并 装填 数据 后 动 
态 生 成 战争 地 图 。 


6 结论 


先秦 典籍 内 容 丰 富 .思想 活跃 ,凝结 着 先秦 大 家 的 
思想 与 智慧 。 其 中 ,《 左 传 ) 是 先秦 时 期 最 具 代 表 性 的 
史学 著作 之 一 ,针对 《 左 传 ) 展 开 研 究 ,能 够 为 古 汉语 
言 学 .考古 学 等 诸多 历史 文学 领域 的 研究 提供 帮助 ; 同 
时 ,将 《 左 传 》 作为 实验 语 料 ,以 期 能 够 探索 出 有 效 的 
击 油 语 信息 抽取 方法 ,同时 为 自然 语言 处 理 领域 提供 
参考 。 本 文 基于 框架 理论 构建 ( 左 传 》 战 争 事件 基本 
框 芍 体系 ,利用 模式 匹配 法 进行 战争 句 识别 ,选择 条 件 

阐 场 模型 结合 特征 模板 对 战争 时 间 、 进 攻 方 .防守 
产生 争 地 点 .战争 触发 原因 以 及 战争 结果 7 个 命名 实 
体 进行 识别 和 抽取 ,同时 基于 得 到 的 结构 化 数据 对 战 
四， 展示 。 具 有 以 下 特点 和 优 

:由 将 条 件 随 机 场 模型 和 框架 理论 .特征 模板 模式 
罗列 法 等 理论 方法 结合 起 来 ,对 于 提高 事件 抽取 的 完 
希 齐 .针对 性 和 可 行 性 具有 较 好 的 效果 ;加 基于 《 左 
传 注 本 内 容 的 特点 ,设计 、 选 择 相应 的 标注 体系 和 特 
筷 尾 板 , 取 得 较 好 的 实验 效果 ; 辆 通过 多 次 实验 ,以 验 
证 不 同窗 口 长 度 的 特征 模板 .不 同 特征 对 于 实验 效果 
的 影响 ,从 而 取得 最 优 实 验 效果 。 最 终 , 本 研究 得 到 以 
下 结论 :条 件 随机 场 模型 能 够 较 好 地 应 用 于 《 左 传 》 
战争 事件 的 抽取 ;@ 特 征 选取 会 影响 实体 识别 的 结果 ; 
@ 具 体内 容 方面 ,春秋 时 期 晋 国 . 楚 国 、 齐 国 . 郑 国 等 国 
的 参战 频率 较 高 ,其 中 晋 国 为 主要 进攻 方 , 郑 国 为 主要 
防守 方 。 
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Study on the Extraction Method of War Events in Zuo Zhuan 
LiZhangchao Li Zhongkai He Lin 
College of Information Science & Technology, Nanjing Agricultural University, Nanjing 210095 

Abstract: | Purpose/significance | This paper conducts research about the war incidents in Zuo Zhuan, it has 
important reference value for the study of pre-Qin history and Chinese culture. | Method/process | It constructs the 
basic framework system of the war incident in Zuo Zhuan based on the framework theory, uses the pattern matching 
method to identify the war sentence, selects the conditional random field model, and combines the feature template to 
identify and extract seven named entities, such as war time and warring parties. Finally, based on the obtained struc- 
tured data, the war events are analyzed and visualized. | Result/conclusion | The research results show that the CRF 
model can be applied to the extraction of war events in Zuo Zhuan; the feature selection affects the results of entity 
recognition; about specific content, Jin, Chu, Qi, Zheng and other countries participated in the war more frequent- 
ly. Jin was the main attacker. Zheng was the main defender during the Spring and Autumn Period. 


T= Keywords: Zuo Zhuan war event event extraction 


© 
< 《知识 管理 论坛 》 投 稿 须知 


图 


科学 院 文献 情报 中 心 主办 的 网 络 开放 获取 学 术 期 刊 ,2017 年 人 选 国际 著名 的 开放 获取 期 刊 名 


0 识 管理 论坛 )(CN11 - 6036/C ,ISSN 2095 - 5472) 是 由 中 


录 C 了 Oa ) 。( 知 识 管理 论坛 ?致力 于 推动 知识 时 代 知识 的 创造 ,组织 和 有 效 利用 ,促进 知识 管理 研究 成 果 的 快速 .广泛 和 有 效 传播 。 
‖ 报道 范围 号; 单位 采用 国际 单位 制 ,用 相应 的 规范 符号 表示 。 
CR 的 二 与 知 机关. 近 计 在 关 知 识 和 ,知识 服务 ,知识 新人 5. 评审 程序 
问题 沁 稿 件 可 侧重 于 理论 ,也 可 侧重 于 应 用 ,技术 .方法 .模型 .最 佳 实践 等 。 执行 严格 的 三 审 制 , 即 初审 .复审 ( 双 育 同行 评议 ) .终审 。 
_ 了 学 术 道 德 要 求 6. 发 布 渠道 与 形式 
S 坝 靖 必 须 为 未 公开 发 表 的 原创 性 研究 论文 ,先是 与 内 容 具 有 一定 的 创新 稿件 主要 通过 网 络 发 表 ,如 我 刊 的 网 站 (www. kmf. ac. cn) 和 我 刊 授权 的 数 
性 :可 用 他 人 成 果 , 请 务必 按 《著作 权 法 》 有 关 规 定 指明 原作 者 姓名 作品 名 称 。 据 库 。 
及 其 杂 源 ,在 文 后 参考 文献 中 列 出 。 本 刊 已 授权 数据 库 有 中 国 期 刊 全 文 数据 库 ( CNKI) . 龙 源 期 刊 网 .超星 期 乔 域 
he CNKI 科技 期 刊 学 术 不 端 文献 检测 系统 ( AMLC) 对 来 稿 进 行 论文 。 出 版 平台 等 ,作者 稿件 一 经 录用 ,将 同时 被 该 数据 库 收录 ,如 作者 不 同意 收录 ,请 
相 肖 要 检测 ,如 果 各 件 存在 学 术 不 端 行为 一经 发 现 概 不 录用 :车 论文 在 发 表 后 。 在 投入 时 提出 声明 。 
被 发 现 有 学 术 不 端 行为 ,我 们 会 对 其 进行 撤 稿 处 理 , 涉 嫌 学 术 不 端 行为 的 稿件 7. 费用 
作者 将 进入 我 刊 黑 名 单 。 自 2016 年 1 月 1 日 起 ,在 (知识 管理 论坛 》 上 发 表 论文 ,将 免 收 稿件 处 理 费 。 
3， 署 名 与 版 权 问题 8， 关 于 开放 获取 
作者 应 该 是 论文 的 创意 者 实践 者 或 扎 稿 者 , 即 论文 的 责任 者 与 著作 权 拥 有 本 刊 发 表 的 所 有 研究 论文 ,其 出 版 版 本 的 PDF 均 须 通过 本 刊 网 站 (www. 
者 。 署 名 作者 的 人 数 和 顺序 由 作者 自 定 ,作者 文责 自负 。 所 有 作者 要 对 所 提交 的 “kmf_ ac. en) 在 发 表 后 立即 实施 开放 获取 ,鼓励 自 存储 , 基本 许可 方式 为 CC - 
稿件 进行 最 后 确认 。 BY( 署 名) 。 详 情 参 阅 期 刊 首页 OA 声明 。 
沦 文 应 列 出 所 有 作者 的 姓名 ,对 研究 工作 做 出 贡献 但 不 符合 作者 要 求 的 人 9. 选 题 范围 
要 在 致谢 中 列 出 。 互联 网 与 知识 管理 .大 数据 与 知识 计算 数据 监护 与 知识 组 织 .实践 社区 与 
沦 文 同意 在 我 刊 发 表 , 以 编辑 部 收 到 作者 签字 的 “论文 版 权 转让 协议 ”为 。 ”知识 运营 .内 容 管理 与 知识 共享 .数据 关联 与 知识 图 谱 . 开 放 创新 与 知识 创造 、 
依据 。 数据 挖掘 与 知识 发 现 。 
依照 (著作 权 法 ) 规 定 ,论文 发 表 前 编辑 部 进行 文字 性 加 工 .修改 .删节 , 必 10， 关 于 数据 集 出 版 
要 时 可 以 进行 内 容 的 修改 ,如 作者 不 同意 论文 的 上 述 处 理 , 需 在 投稿 时 声明 。 为 方便 学 术 论 文 数据 的 管理 .共享 .存储 和 重用 ,近日 我 们 通过 中 国 科学 院 


我 刊 采 用 知识 共享 署名 (CC BY) 协 议 ,允许 所 有 人 下 载 . 再 利用 .复制 .改编 . 传 。 网 络 中 心 的 ScienceDB 平台 (www. sciencedb. en) 开通 数据 出 版 服务 ,该 平台 支 
播 所 发 表 的 文章 ,引用 时 请 注 明 作者 和 文章 出 处 ( 推荐 引用 格式 如 : 吴 庆 海 . 企业 知 ”” 持 任意 格式 的 数据 集 提交 ,欢迎 各 位 作者 在 投稿 的 同时 提交 与 论文 相关 的 数据 
识 芋 取 理论 与 实践 研究 [J/OL]. 知识 管理 论坛 , 2016, 1(4) : 243 -250[ 引 用 日 ” 集 ( 稿 件 提交 的 第 5 步 即 进入 提交 数据 集 流程 ) 。 


期 ]. http://www. kmf. ac. cen/ p/1/36/. ) 。 11. 投稿 途径 
4. 写作 规范 本 刊 唯一 投稿 途径 :登录 www. kmf. ac. cn ,点 击 作者 投稿 系统 ,根据 提示 进 


本 刊 严格 执行 国家 有 关 标 准 和 规范 ,投稿 请 按 现行 的 国家 标准 及 规范 扎 。” 行 操作 即 可 。 


29 


